草庐IT

java - 从 URL 中提取 HTML

全部标签

ruby - 使用 open-uri 和 nokogiri 在完全加载之前读取 HTML

我正在使用open-uri和nokogiri以及ruby​​来进行一些简单的网络爬虫。有一个问题,有时html在完全加载之前就被读取了。在这种情况下,我无法获取加载图标和导航栏以外的任何内容。告诉open-uri或nokogiri等待页面完全加载的最佳方法是什么?目前我的脚本是这样的:require'nokogiri'require'open-uri'url="https://www.the-page-i-wanna-crawl.com"doc=Nokogiri::HTML(open(url,ssl_verify_mode:OpenSSL::SSL::VERIFY_NONE))puts

ruby-on-rails - 在 Rails 中使用主机和多个路径字符串创建 URL

我想使用端点和路径或主机和路径创建URL。不幸的是URI.join不允许这样做:pry(main)>URI.join"https://service.com","endpoint","/path"=>#pry(main)>URI.join"https://service.com/endpoint","/path"=>#我想要的是:"https://service.com/endpoint/path"。我怎样才能在Ruby/Rails中做到这一点?编辑:由于URI.join有一些缺点,我很想使用File.join:URI.join("https://service.com",File.j

ruby - 从用户提交的文本中提取关键字的好方法是什么?

我正在构建一个网站,该网站允许用户通过以图形方式表示支持和反对特定问题的论点来理解辩论。(Wrangl)我想对这些辩论进行分类,以便更容易找到它们并将它们联系起来。我不想让发起辩论的人在他们看到任何好处之前添加标签和类别,从而激怒他们,所以我正在寻找一种自动提取关键字的方法。有什么好的方法可以利用辩论的标题和描述(以及可能的论点本身的内容,一旦有的话)来提取,比如说,可以用作元数据将类似辩论联系在一起的十个强关键字,或者即使是在可以查看辩论的HTML页面头部的“元”关键字标记的内容。例如。DatamappervsActiveRecord该网站使用Ruby和Sinatra编码,使用Dat

ruby-on-rails - 在 Rails 中,如何使用字符串数组实现 HTML 选择菜单?

我有一个FinancialDocument#document_type模型属性。我想让用户从由字符串数组填充的HTML选择菜单中选择文档类型...doctypes=['Invoice','Packingslip','Other']对于每个选项,显示的标签和返回的值都是相同的。我查看了select和collection_select助手,但它们似乎适合选择子模型,而不仅仅是一个String值。我找不到如何让它们达到我的目的。这是我正在尝试的方法(我使用的是Haml,而不是Erb)...form_for(@financial_document)do|f|-doctypes=['Invoic

jquery - 你能通过 url 发送 JSON 吗?

我有一个ruby​​散列,其中键是url,值是整数。我将散列转换为JSON,我想知道我是否能够通过AJAX请求在url中发送JSON,然后从参数散列中提取该JSON。另外,我将向客户端发送一个JSON化的ruby​​散列。如果我在我的AJAX函数中有一个成功的回调,我在其中接收到data变量中的数据,我该如何使用JQuery解析该JSON?如果我需要更具体一点,请告诉我。 最佳答案 是的,你可以毫无问题。无需手动编码/解码!你的代码应该是这样的:varjsonParam='{"name":"Edgar"}';//Samplejson

ruby - 在 Ruby 中使用 Nokogiri 解析 HTML

使用此HTML代码:....................如何使用Nokogiri选择类为1的第二个或第三个div? 最佳答案 您可以使用Ruby将大型结果集缩减为特定项目:page.css('div.one')[1,2]#Twoitemsstartingatindex1(2nditem)page.css('div.one')[1..2]#Itemswithindicesbetween1and2,inclusive因为Ruby索引从零开始,所以你必须注意你想要的项目。或者,您可以使用CSS选择器来查找nthitem:#Second

ruby - 在 Ruby 中解析 URL 以获得没有 "www"的子域或主域?

如果我有一个URL:http://www.example.com/page我想将其解释为:example.com但是,如果我有:http://blog.example.com/page我想回去:blog.example.com这很难吗? 最佳答案 使用Ruby的URI模块:require'uri'URI.parse('http://www.example.com/page').host=>"www.example.com"URI.parse('http://blog.example.com/page').host=>"blog.ex

Ruby linkify 用于字符串中的 url

有一些关于使用正则表达式链接文本的帖子。最受欢迎isthispost.但是我的规范有点棘手:describeTextFormatterdodefl(input)TextFormatter.gsub_links!(input){|link|"!!#{link}!!"}endit"shoulddetectsimplelinks"dol("http://www.cnn.com").should=="!!http://www.cnn.com!!"endit"shoulddetectmultilinks"dol("http://www.cnn.comhttp://boats.com?help.a

ruby - 使用正则表达式获取 URL 的域

我正在尝试获取给定URL的域。例如http://www.facebook.com/someuser/将返回facebook.com。给定的URL可以是以下格式:https://www.facebook.com/someuser(www.是可选的,但应忽略)www.facebook.com/someuser(http://不是必需的)facebook.com/someuserhttp://someuser.tumblr.com->这只能返回tumblr.com我写了这个正则表达式:/(?:\.|\/{2})(?:www\.)?([^\/]*)/i但它并没有像我预期的那样工作。我可以分部分

ruby-on-rails - Rails 3 和 PDFKit,如何将 HTML 文件转换为横向 PDF?

我可以很好地将HTML页面转换为PDF文档。问题是,我不知道如何将HTML文件转换为横向PDF。有没有办法在Controller中设置它?从Controller...defpdf_customer_shipments@customer=Customer.find(params[:id])@shipments=Shipment.where("customer_id=?ANDstatus='Open'",@customer.id)render:layout=>'pdf'end 最佳答案 如果这有帮助,我正在使用PDFKit,并且可以使用